moe

从数据到模型:看 DEEPSEEK 如何用训练优化改写 AI 规则

在人工智能与数据安全双重浪潮的推动下,DeepSeek大模型一体机作为国产化大模型落地的“黄金载体”,正以颠覆性姿态开辟全新市场赛道。这一技术产品并非渐进式创新,而是由数据主权觉醒、国产算力崛起、政策强驱动三大变量催生的爆发式机会点。其核心价值在于以“开箱即用

训练 模型 deepseek moe 图像缩放 2025-05-19 12:10  12

最新消息!DeepSeek发表重磅级论文

论文揭示了硬件与模型架构的深度耦合:采用FP8混合精度训练降低60%显存占用,结合多平面Fat-Tree网络拓扑将集群通信成本压缩至传统架构的40%,而专家并行(EP)与节点限制路由策略更让大规模MoE模型在2048块H800 GPU上实现高效训练。

论文 agent rpa deepseek moe 2025-05-16 15:25  10

梁文锋署名,最新论文发布

这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平

论文 moe mla 文锋 reflections 2025-05-16 13:27  10

梁文锋署名,DeepSeek-V3回顾性论文发布

这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平

论文 moe mla 文锋 reflections 2025-05-16 11:57  11